GPT-4 en profundidad: capacidades reales frente a expectativas

En marzo de 2023, OpenAI lanzó GPT-4 con una presentación que prometía “niveles humanos de performance en muchos benchmarks”. Cinco meses después, con miles de integraciones reales, estamos en mejor posición para juzgar: qué capacidades se cumplieron, cuáles fueron sobrevendidas, y dónde todavía hay brechas significativas respecto a alternativas como Claude 2 y LLaMA 2.

Donde GPT-4 realmente destaca

Con el benchmark ampliado a decenas de casos reales, GPT-4 es consistentemente mejor en:

Razonamiento encadenado complejo. En problemas que requieren mantener múltiples variables, condicionales y pasos intermedios, GPT-4 alucina menos y mantiene la coherencia mejor que cualquier otro modelo actualmente disponible.
Escritura técnica precisa. Generar documentación, resúmenes de papers, explicaciones paso a paso de conceptos complejos — especialmente en dominios como programación, finanzas cuantitativas o medicina — GPT-4 produce texto que requiere pocas correcciones editoriales.
Código de mediana complejidad. No es infalible, pero en tareas como “refactorea esta función”, “escribe tests para este componente”, o “explícame qué hace este código heredado”, supera claramente a GitHub Copilot en los casos donde la sugerencia del IDE no basta.
Seguimiento de instrucciones muy detalladas. Un prompt con 15 restricciones específicas (“responde en JSON con estas claves, no menciones X, limita a 100 palabras”) es respetado mucho más fielmente que con GPT-3.5.

Donde sigue siendo frustrante

Pero hay áreas donde GPT-4, pese al marketing, sigue fallando sistemáticamente:

Cálculo aritmético

Sorprendentemente, GPT-4 comete errores aritméticos triviales con relativa frecuencia. “¿Cuánto es 2394 × 71?” da resultados incorrectos ~30% del tiempo. Esto se mejora radicalmente con Code Interpreter, que ejecuta Python para cálculos reales.

Información posterior a su corte de entrenamiento

El modelo fue entrenado con datos hasta septiembre de 2021 (o abril de 2023 para versiones actualizadas). Preguntas sobre eventos recientes, versiones actuales de librerías o noticias frescas resultan en información desactualizada o inventada. Con browsing plugin esto mejora, pero la latencia y fiabilidad caen.

Consistencia entre conversaciones

La misma pregunta en dos conversaciones distintas puede recibir respuestas significativamente diferentes. Para casos de uso que requieren determinismo (auditorías, validaciones reproducibles), esto obliga a técnicas de prompting más rígidas o a bajar temperature a 0 — lo que a veces degrada calidad.

Números grandes y contextos muy largos

Con 8k-32k tokens de contexto (según versión), GPT-4 se rinde cuando hay mucho texto. El famoso “lost in the middle” de Liu et al. muestra que los modelos ignoran información colocada en el centro de un contexto largo. Claude 2 con 100k tokens lo hace ligeramente mejor, pero el problema existe en ambos.

GPT-4 vs Claude 2

Claude 2, lanzado por Anthropic en julio de 2023, aporta algunas ventajas notables:

Ventana de contexto de 100k tokens. Permite cargar libros enteros, manuales técnicos o transcripciones largas en un solo prompt.
Tono más conservador. Menos propenso a exagerar o inventar; cuando no sabe, suele admitirlo.
Seguridad integrada más estricta. Para aplicaciones donde minimizar respuestas problemáticas importa, Claude 2 falla en menos casos conflictivos.

Donde GPT-4 gana: código complejo, matemáticas simbólicas, razonamiento multi-paso en problemas con más de 5 entidades interactuando.

GPT-4 vs LLaMA 2 70B

Comparado con LLaMA 2 70B:

GPT-4 gana claramente en razonamiento complejo y código.
LLaMA 2 70B es competitivo en tareas de resumen, clasificación, Q&A simple.
LLaMA 2 tiene la ventaja absoluta en privacidad, coste a escala y personalización.

Para cualquier tarea donde LLaMA 2 70B da resultados “aceptables”, es casi siempre la mejor elección — el delta de calidad no justifica el coste/privacidad de GPT-4.

Evaluación en tu dominio

El único benchmark que importa es el de tu caso de uso. Un proceso práctico para evaluar GPT-4 vs alternativas:

Selecciona 20-30 prompts representativos de tu aplicación real, con respuestas “ideales” anotadas por humanos.
Ejecuta cada prompt en GPT-4, Claude 2, LLaMA 2 y registra las respuestas.
Evalúa ciegamente (sin saber qué modelo generó qué): ¿cuál se acerca más a la respuesta ideal?
Cuantifica el coste total: precio por token × volumen esperado + overhead operativo.

Este proceso, que describimos con más detalle en prompt engineering como disciplina madura, suele revelar sorpresas — a veces Claude 2 gana donde esperabas a GPT-4, o LLaMA 2 da resultados suficientes a 1/10 del coste.

Uso responsable

Una dimensión que conviene no olvidar: GPT-4 genera texto plausible incluso cuando se equivoca. Para aplicaciones con impacto real (decisiones médicas, legales, financieras), el output del modelo debe pasar por validación humana o sistemas de verificación independientes. El modelo no tiene forma de saber cuándo está equivocado con confianza, y eso es peligroso en flujos sin supervisión.

Conclusión

GPT-4 es el modelo más capaz en capacidad general disponible en 2023, pero “más capaz” no significa “mejor elección para todo”. Equipos maduros evalúan por caso de uso, no por reputación del modelo. En muchos escenarios, Claude 2 o LLaMA 2 dan mejor relación valor/coste; en otros, GPT-4 sigue siendo el estándar insuperable. La sofisticación del equipo se mide en saber cuál es cuál.

Síguenos en jacar.es para más sobre LLMs, evaluación de IA y arquitectura de producto.